单细胞|细胞_腾讯研究成果登《Nature》子刊：高泛化性稳定性可解释性单细胞注释模型

作者：214812031_88fe08 | 来源：互联网 | 2023-09-07 12:49

篇首语：本文由编程笔记#小编为大家整理，主要介绍了腾讯研究成果登《Nature》子刊：高泛化性稳定性可解释性单细胞注释模型相关的知识，希望对你有一定的参考价值。

9月27日&＃xff0c;腾讯在人工智能、生命科学跨学科应用领域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》&＃xff08;《基于大规模预训练语言模型的单细胞转录组细胞类型注释算法》&＃xff09;&＃xff0c;登上国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。

据了解&＃xff0c;《Nature Machine Intelligence》只关注对该领域具有重要影响的科研成果。因其严格的评审标准&＃xff0c;每年收录论文数量平均仅60篇左右。目前该期刊在计算机科学、人工智能领域期刊中排名第一。

腾讯在论文中创新性地提出关于单细胞注释的“scBERT”算法模型&＃xff0c;受到《Nature Machine Intelligence》杂志评审高度认可&＃xff0c;表示该成果对于单细胞转录组测序数据分析领域未来研究具有深远意义。

单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱&＃xff08;细胞表达&＃xff09;&＃xff0c;便于更好地了解肿瘤微环境&＃xff0c;以达到精细分析病因、精准匹配治疗方案的效果&＃xff0c;对于“精准医疗”具有极高的应用价值。

值得注意的是&＃xff0c;受数据样本量小、人工干预多、过度依赖marker gene&＃xff08;已报道的特异性基因&＃xff09;等因素的影响&＃xff0c;单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题&＃xff0c;现存的算法难以有更广泛的应用。

针对以上问题&＃xff0c;论文中首次提出“基于大规模预训练语言模型的单细胞转录组细胞类型注释算法”&＃xff0c;即“scBERT”模型&＃xff0c;首次将“transformer”&＃xff08;自然语言处理算法经典计算单元&＃xff09;运用到单细胞转录组测序数据分析领域。该模型基于BERT范式&＃xff0c;将细胞中基因的表达信息转化成可被计算机理解、学习的“语言”&＃xff0c;并对细胞进行精准标注。

为了保证全基因组内基因级别的可解释性&＃xff0c;“scBERT”在预训练数据上没有做任何的降维或筛选处理&＃xff0c;最大程度上保留数据本身的特性和信息。此外&＃xff0c;该模型复用了大规模的公开数据集&＃xff0c;包含不同实验来源、批次和组织类型的单细胞数据&＃xff0c;以保证模型能学习到更为“通用”的知识&＃xff0c;精准捕获单个基因的表达信息及两两基因之间的作用关系。

从结果上来看&＃xff0c;“scBERT”模型实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术。截至目前&＃xff0c;通过了9个独立数据集、超过50万个细胞、覆盖17种主要人体器官和主流测序技术组成的大规模benchmarking测试数据集上&＃xff0c;该算法模型的优越性均得以验证。其中&＃xff0c;在极具挑战的外周血细胞亚型细分任务上&＃xff0c;相较现有最优方法的70%准确度提升了7%。

在应用价值层面&＃xff0c;该项技术能给细胞中的每个基因都印上专属“身份证”&＃xff0c;可用于临床单细胞测序数据&＃xff0c;并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞&＃xff0c;从而实现个性化治疗方案或者癌症早筛。同时&＃xff0c;对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。

此前&＃xff0c;腾讯AI Lab团队科研成果曾多次入选《Nature Communications》、ACL-IJCNLP等国际权威期刊&＃xff0c;研究方向涵盖文本理解、文本生成、智能对话、机器翻译、信息抽取、信息检索等领域。未来&＃xff0c;腾讯会继续基于自身先进AI技术的积累&＃xff0c;与下游临床、制药和生命科学基础研究领域进行密切合作&＃xff0c;为行业贡献更多价值。

推荐阅读

int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
int
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
数组
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
int
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
int
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
int
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
int
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
get
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
int
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
int
首期百辨太魔人完美收官，内附干货音频等你解锁！

点击蓝字关注我们AITIME欢迎每一位AI爱好者的加入！“和计算机的相遇是因为“前”途无量还是“钱”迷心窍？计算机行业近些年非常火爆，高考 ... [详细]

蜡笔小新 2024-10-21 20:29:45
int
玩转系统|初遇ChatGPT,我和TA的第一次约会

最近互联网圈子有一个非常火爆的话题ChatGPT，短短一周的时间就有上百万的用户，如果你不是程序员，也许会问这到底是个什么玩意࿱ ... [详细]

蜡笔小新 2024-10-15 16:52:58
int
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
int
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
int
当人工智能（AI）撞上供应链

了解供应链简单来说，供应链涉及一系列旨在向最终用户提供产品或服务的步骤。企业组织及其供应商之间始终存在一个网络，来生产特定产品并将其交付给最终用户。该网络包括不同的活动、人员、实体 ... [详细]

蜡笔小新 2024-10-11 18:25:31

214812031_88fe08

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章